79 research outputs found

    Constructing bi-plots for random forest:Tutorial

    Get PDF
    Current technological developments have allowed for a significant increase and availability of data. Consequently, this has opened enormous opportunities for the machine learning and data science field, translating into the development of new algorithms in a wide range of applications in medical, biomedical, daily-life, and national security areas. Ensemble techniques are among the pillars of the machine learning field, and they can be defined as approaches in which multiple, complex, independent/uncorrelated, predictive models are subsequently combined by either averaging or voting to yield a higher model performance. Random forest (RF), a popular ensemble method, has been successfully applied in various domains due to its ability to build predictive models with high certainty and little necessity of model optimization. RF provides both a predictive model and an estimation of the variable importance. However, the estimation of the variable importance is based on thousands of trees, and therefore, it does not specify which variable is important for which sample group.The present study demonstrates an approach based on the pseudo-sample principle that allows for construction of bi-plots (i.e. spin plots) associated with RF models. The pseudo-sample principle for RF. is explained and demonstrated by using two simulated datasets, and three different types of real data, which include political sciences, food chemistry and the human microbiome data. The pseudo-sample bi plots, associated with RF and its unsupervised version, allow for a versatile visualization of multivariate models, and the variable importance and the relation among them. (c) 2020 Elsevier B.V. All rights reserved.</p

    Simultaneous analysis of plasma and CSF by NMR and hierarchical models fusion

    Get PDF
    Because cerebrospinal fluid (CSF) is the biofluid which interacts most closely with the central nervous system, it holds promise as a reporter of neurological disease, for example multiple sclerosis (MScl). To characterize the metabolomics profile of neuroinflammatory aspects of this disease we studied an animal model of MScl—experimental autoimmune/allergic encephalomyelitis (EAE). Because CSF also exchanges metabolites with blood via the blood–brain barrier, malfunctions occurring in the CNS may be reflected in the biochemical composition of blood plasma. The combination of blood plasma and CSF provides more complete information about the disease. Both biofluids can be studied by use of NMR spectroscopy. It is then necessary to perform combined analysis of the two different datasets. Mid-level data fusion was therefore applied to blood plasma and CSF datasets. First, relevant information was extracted from each biofluid dataset by use of linear support vector machine recursive feature elimination. The selected variables from each dataset were concatenated for joint analysis by partial least squares discriminant analysis (PLS-DA). The combined metabolomics information from plasma and CSF enables more efficient and reliable discrimination of the onset of EAE. Second, we introduced hierarchical models fusion, in which previously developed PLS-DA models are hierarchically combined. We show that this approach enables neuroinflamed rats (even on the day of onset) to be distinguished from either healthy or peripherally inflamed rats. Moreover, progression of EAE can be investigated because the model separates the onset and peak of the disease

    Análisis multivariante de espectros resueltos en el tiempo

    No full text
    L'analyse pertinente de l'information contenue dans les mesures instrumentales modernes nécessite le développement de méthodes algorithmiques performantes. La spectroscopie n'échappant pas à cette règle, nombre d'outils chimiométriques d'analyse multivariée ont été mis au point en conséquence. L'objectif de cette thèse est de participer à ces développements pour caractériser les spectres et les profils de concentration des composés intervenant lors de réactions photoinduites suivies en spectroscopique résolue en temps. Un premier travail concerne l'analyse du rang de données de différence. Une déficience de rang systématique de ces données a été mise en évidence. Une approche basée sur un algorithme de modélisation hybride est proposée en réponse à ce problème. En effet l'introduction d'un modèle cinétique compense cette déficience de rang des données. Le deuxième travail se rapporte à la caractérisation de l'influence du bruit (d'une part sur la mesure et d'autre part sur la résolution multivariée). Une analyse de la structure de corrélation du bruit permet d'expliquer les phénomènes de surajustement des méthodes de modélisation souple. Un second algorithme résout ce problème en pondérant les données en fonction d'une estimation de l'erreur de mesure. Ces points sont illustrés par deux applications; premièrement une contribution à l'analyse du centre réactionnel de la bactérie Rhodobacter sphaeroides par spectroscopie lRTF et ensuite l'étude de la photorelaxation de la benzophénone par spectroscopie d'absorption transitoire.Pertinent analysis of the information embedded in modern instrumental measurements requires the development of efficient mathematical and statistical tools. ln spectroscopy, various tools have been proposed in such purpose. The aim of this thesis is to participate to these developments in order to characterize the spectra and concentration profiles of the compounds involved in photoinduced reactions monitored by time-resolved spectroscopy. A first part of this work is related to the rank analysis of difference data. A systematic rank deficiency has been demonstrated in this case. An approach based on a hybrid algorithm is proposed as a solution to this problem. lndeed the introduction of a kinetic model compensates this rank deficiency. A second part of the work deals with the characterisation of the noise influence (firstly on measurement and then on multivariate resolution). An analysis of the correlations structure of the noise permit to explain the overfitting phenomenon observed with soft modelling methods. A second algorithm solves this problem through a weighting scheme involving an estimation of the measurement error.These points are illustrated by two applications: first, a contribution to the analysis of the reaction centre of Rhodobacter sphaeroides by FTIR spectroscopy; then the study of the benzophenone photorelaxation by transient absorption spectroscopy

    Sur les modalites de formation des filons de basse temperature dans les socles : exemples du Kaymar et de Lacan (Aveyron, France)

    No full text
    SIGLECNRS T Bordereau / INIST-CNRS - Institut de l'Information Scientifique et TechniqueFRFranc

    L'otite séromuqueuse de l'enfant (quelles difficultés pour les médecins généralistes de Loire-Atlantique ?)

    No full text
    L'otite séromuqueuse est une pathologie très fréquente chez l'enfant. Elle a fait l'objet de recommandations françaises en 1997. A travers la réalisation de treize entretiens semi-directifs nous avons voulu savoir si les médecins généralistes de Loire-Atlantique connaissaient ces recommandations et s'ils les appliquaient. Nous avons pu mettre en évidence qu'aucun des médecins interrogé ne connaissait l'existence de ces recommandations et que seuls deux d entre eux (15%) ont l'attitude attentiste recommandée de trois mois. Plus de 84% font appel à l'otorhinolaryngologiste trop rapidement. Les antibiotiques sont prescrits de façon inadaptée par 38% des médecins et les corticoïdes par plus du tiers d entre eux. Les facteurs de risque sont encore trop méconnus et de nombreux efforts restent à faire en terme de prévention de l otite séromuqueuse et de ses complications. Nos recherches nous ont également permis de constater que les données sur l otite séromuqueuse de l enfant ont évolué depuis 1997 et qu une mise à jour est nécessaire. En 2009 la prise en charge de l'otite séromuqueuse de l'enfant par les médecins interviewés semble donc être peu adaptée. L'information des médecins doit se poursuivre en tenant compte des nouvelles données sur ce sujet.NANTES-BU Médecine pharmacie (441092101) / SudocPARIS-BIUM (751062103) / SudocSudocFranceF
    • …
    corecore